检索结果

Select

1. 面向微博文本流的负面情感突发话题检测

李艳红, 赵宏伟, 王素格, 李德玉

计算机应用 2020, 40 (12): 3458-3464. DOI: 10.11772/j.issn.1001-9081.2020060880

摘要（305）

PDF （1188KB）（400）

如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要，而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别，为此提出了一种面向微博文本流的负面情感突发话题检测（NE-BTD）算法。首先，将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据；然后，利用突发词对的速度确定负面情感突发话题的窗口范围；最后，使用一种基于吉布斯采样的狄利克雷多项式混合模型（GSDMM）聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测（EBM-TD）算法进行对比，结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%，并且可以至少提前40 min检出负面情感突发话题。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于粗糙集的非监督快速属性选择算法

白鹤翔, 王健, 李德玉, 陈千

计算机应用 2015, 35 (8): 2355-2359. DOI: 10.11772/j.issn.1001-9081.2015.08.2355

摘要（602）

PDF （773KB）（349）

针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。

参考文献 | 相关文章 | 多维度评价

Select

3. 多标记数据特征提取方法的核改进

李华, 李德玉, 王素格, 张晶

计算机应用 2015, 35 (7): 1939-1944. DOI: 10.11772/j.issn.1001-9081.2015.07.1939

摘要（519）

PDF （997KB）（495）

针对多标记数据特征提取方法中输出核函数没有准确刻画标记间的相关性的问题,在充分度量标记间相关性的基础上,提出了两种新的输出核函数构造方法。第一种方法首先将多标记数据转化为单标记数据,并使用标记集合来刻画标记间的相关性;然后从损失函数的角度出发定义新的输出核函数。第二种方法是利用互信息来度量标记间的两两相关性,在此基础上进一步构造新的输出核函数。3个多标记数据集上2种分类器的实验结果表明,与原有核函数对应的多标记特征提取方法相比,基于损失函数的输出核函数对应的特征提取方法性能最好,5个评价指标的性能平均提高了10%左右, 尤其在Yeast数据集上,Coverage指标下降幅度达到了30%左右;基于互信息的输出核函数次之,性能平均提高了5%左右。实验结果表明,基于新的输出核函数的特征提取方法能够更加有效地提取特征,并进一步简化分类器的学习过程,提高分类器的泛化性能。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于数据流的网络入侵实时检测框架

李艳红, 李德玉, 崔梦天, 李华

计算机应用 2015, 35 (2): 416-419. DOI: 10.11772/j.issn.1001-9081.2015.02.0416

摘要（546）

PDF （792KB）（424）

针对计算机网络访问请求具有实时到达以及动态变化的特点,为了实时检测网络入侵,并且适应网络访问数据的动态变化,提出一个基于数据流的网络入侵实时检测框架。首先,将误用检测模式与异常检测模式相结合,通过初始聚类建立由正常模式和异常模式构成的知识库;其次,采用数据点与数据簇之间的不相似性来度量网络访问数据与正常模式和异常模式的相似性,从而判定网络访问数据的合法性;最后,当网络访问数据流发生演化时,通过重新聚类来更新知识库以反映网络访问的最近状态。在入侵检测数据集KDDCup99上进行实验,当初始聚类的样本数为10000,缓冲区聚类的样本数为10000,调节系数为0.9时,召回率达到91.92%,误报率达到0.58%,接近传统非实时检测模式的结果,但整个学习和检测过程只需扫描网络访问数据一次,并引入了知识库的更新机制,在入侵检测的实时性和适应性方面更具有优势。

参考文献 | 相关文章 | 多维度评价